OCR

OCR
Optical Character Recognition (engl.); Texterkennung; optische Zeichenerkennung

* * *

OCR 〈Abk. für engl.〉 Optical Character Recognition (optische Zeichenerkennung), Methode zur automatischen Erfassung u. Umwandlung von gedruckten Zeichen in Schrift (mithilfe eines Scanners)

* * *

OCR
 
[Abk. für Optical Character Recognition, dt. optische Zeichenerkennung] die, eine Methode, mit der ein auf Papier vorliegender Text so in einen Computer eingelesen wird, dass er wie üblicher Text (z. B. mit einem Textverarbeitungsprogramm) bearbeitet werden kann. Zum Einlesen dient ein Scanner, bei den Vorlagen handelt es sich i. d. R. um gedruckte Texte (Bücher, Zeitschriften, Computerausdrucke), spezielle OCR-Programme (z. B. bei Bankbeleglesern) können aber auch handschriftliche Texte verarbeiten, zumindest dann, wenn sie in standardisierter Form (Druckbuchstaben in Kästchen) vorliegen. Handschrifterkennung im eigentlichen Sinn, wie sie z. B. bei Handhelds mit berührungsensitivem Bildschirm eingesetzt wird, ist komplexer als OCR, weil auch die zeitliche Komponente des Schreibens berücksichtigt werden muss.
 
Nach dem Einscannen liegen die Daten zunächst als Bitmap-Grafik vor (meist im TIFF-Format). Die Aufgabe des OCR-Programms besteht nun darin, die Zeichenketten in in einem solchen Bild zu erkennen und in Text umzuwandeln.
 
Für die Zeichenerkennung wird entweder das Verfahren des Pattern Matching (dt. »Musteranpassung«) oder die Methode des Feature Recognition (dt. »Erkennung der Zeicheneigenschaft«) eingesetzt.
 
Beim Pattern Matching wird das Bild Pixel für Pixel abgetastet und gefundene Zeichenmuster werden aufgenommen, wobei als Erkennungskriterium v. a. hohe Kontraste dienen (weshalb die besten Ergebnisse bei Schwarz-Weiß-Bildern erreicht werden). Die gefundenen Zeichenmuster werden mit einer Vorlage verglichen, die alle Zeichen eines bestimmten Zeichensatzes enthält. Das Zeichen mit der geringsten Abweichung wird schließlich in der Ausgabedatei abgelegt. Der Nachteil dieses Verfahrens liegt in der großen Menge von Zeichensätzen, über die ein OCR-Programm verfügen muss. Für jede Schriftart sowie für die unterschiedlichen Schriftschnitte muss jeweils ein eigener Zeichensatz vorhanden sein. Die meisten Programme arbeiten daher mit einem von mehreren möglichen Standardzeichensätzen, zwischen denen der Anwender wählen kann. Die verschiedenen Artefakte, die während des Scannens in den Bitmap-Dateien auftreten, etwa Flecken und Verbindungen zwischen einzelnen Buchstaben, führen zu einer hohen Fehlerrate. OCR-Programme können in einem äußerst zeitintensiven Prozess »trainiert« werden, wobei der Anwender jede falsche Zuweisung durch das korrekte Zeichen ersetzt und die Korrektur vom OCR-Programm gespeichert wird. Dies ist jedoch nur dann sinnvoll, wenn große Textmengen in der immer gleichen Schriftart eingescannt und verarbeitet werden sollen. Zudem bereiten Sonderzeichen wie griechische Buchstaben und mathematische Zeichen immer wieder Probleme.
 
Das Verfahren Feature Recognition bietet im Vergleich zum Pattern Matching deutliche Vorteile, es weist meist eine geringere Fehlerrate auf. Hierbei werden die Buchstaben nicht pixelweise abgetastet, sondern es werden bestimmte Eigenschaften der Zeichen gesucht und mit einer Datenbank verglichen. Bei dieser als Omnifont bezeichneten Technik wird beispielsweise ein kleines »f« durch eine gebogene Linie und einen in der Mitte liegenden Querstrich gekennzeichnet. Dieser Buchstabe kann daher auch dann erkannt werden, wenn er kursiv oder halbfett gesetzt wird. Durch Größenvergleiche lassen sich in der Form ähnlichen Buchstaben (wie »o« und »O«) unterscheiden, sodass Groß- bzw. Kleinbuchstaben richtig zugeordnet werden. Solche Programme sind auch oft in der Lage, eine Mischung unterschiedlicher Schriftarten richtig zu erkennen. Ähnliche Zeichen, wie beim kleinen »l« und der Eins (»1«), können immer noch zu Problemen führen, ebenso eng gesetzte Buchstaben, die nach dem Scannen miteinander verschmolzen sind. So wird die Kombination »rn« oft als »m« erkannt. Viele moderne OCR-Programme enthalten daher eine Rechtschreibprüfung, um die verbliebenen Fehler zu erkennen und zu beseitigen. Sie arbeitet meist automatisch, kann aber auch so eingestellt werden, dass der Benutzer jeden Korrekturvorschlag bestätigen muss. Ein Nachteil des Feature Recognition ist die längere Rechenzeit im Vergleich zum Pattern Matching, die durch den höheren Erkennungsaufwand verursacht wird. Angesichts der immens gestiegenen Rechnerleistungen fallen diese Unterschiede aber kaum mehr ins Gewicht.
 
Die mit OCR gefundenen Zeichen werden in einer RTF-Datei (RTF) oder in einer reinen Textdatei abgelegt und können dann mit einem Textverarbeitungsprogrammen bearbeitet werden.
 
 TIPP:
 
Für das Erkennen von Texten genügen oft auch einfachere und preisgünstigere Scanner, denn hier reicht i. d. R. eine Auflösung von etwa 400 dpi aus. Einfache Schriften und größere Zeichen können manchmal sogar schon ab etwa 200 dpi erkannt werden. Bei digitalen Fotografien von Text (DIN-A4-Seite) entsprechen 200 dpi in etwa einer Auflösung von drei Megapixeln.

Universal-Lexikon. 2012.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

  • OCR-A — Schriftart OCR A Kategorie Grotesk Erstellung …   Deutsch Wikipedia

  • OCR-B — Schriftart OCR B Kategorie Grotesk …   Deutsch Wikipedia

  • OCR-B — Category Sans serif Designer(s) Adrian Frutiger Date released 1968 The OCR B is a set of mono …   Wikipedia

  • OCR-B — OCR B,   eine 1968 entworfene Schrift zur maschinellen optischen Zeichenerkennung (OCR). Im Unterschied zur OCR A Schrift ist die Linienführung runder, wodurch die Schrift für das menschliche Auge leichter lesbar ist, einem OCR Programm aber… …   Universal-Lexikon

  • OCR-A — OCR A,   eine 1968 entworfene Schrift zur maschinellen optischen Zeichenerkennung (OCR). Die Schrift wirkt durch ihre kantige Linienführung sehr technisch, ist aber für OCR Programme leicht zu interpretieren. Man findet sie beispielsweise in der… …   Universal-Lexikon

  • OCR-H — OCR H,   eine Schrift zur maschinellen optischen Zeichenerkennung (OCR), die als Vergleichsgrundlage für handgeschriebene Blockschrift eingesetzt wird. Ein OCR Programm vergleicht dabei die eingelesenen Zeichen mit der OCR Schrift und kann so… …   Universal-Lexikon

  • OCR — noun COMPUTING optical character recognition; a computer system for automatically recognizing letters and numbers that have been printed or written by hand on paper: • the scanner s built in OCR software * * * OCR UK US /ˌəʊsiːˈɑːr/ noun [U] IT ► …   Financial and business terms

  • OCR — may refer to: Optical character recognition, conversion of images of text into characters The OCR A font, designed to simplify character recognition The similar OCR B font Transvaginal oocyte retrieval, a technique used in in vitro fertilization… …   Wikipedia

  • .ocr — ocr,   von einigen Programmen zum Fax oder Bildschirmdruck erzeugte Dateierweiterung, die anzeigt, dass diese Datei mit einem Zeichenerkennungsprogramm (OCR) bearbeitet werden kann …   Universal-Lexikon

  • OCR — DEFINICIJA krat. inform. postupak kojim računalo prepoznaje slova, znakove i brojke skenirane optičkim čitačem u obliku slike [OCR softver] ETIMOLOGIJA engl. Optical Character Recognition …   Hrvatski jezični portal

  • OCR — sigla ES ingl. Optical Character Recognition, lettura ottica di caratteri …   Dizionario italiano

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”